收录于话题
#报表取数的实践
16个内容
这是傅一平的第322篇原创
作者:傅一平
个人微信:frank61822702
“与数据同行”开通了微信群,现已汇聚了4000位小伙伴了,加我为微信好友(微信号:frank61822702)申请即可,会拉你入群,让我们共建一个知识社区。很久以前当我们的数据仓库还是IBM DB2的时候,曾经经历过2次宕机,第一次记得是系统日志出现了不一致导致数据库无法启动,后来联系了国外研发把日志那个环节跳过了才拉起来,躲过一劫;第二次是DB2 的一个序列号TMD满了,直接躺倒,这是我所经历过的最黑暗的时候。为了保障生产,我们临时启用应急库,要重跑近几天的所有数据,在这个过程中,所有的脚本都要手动调起,很多SQL脚本还要临时写,但越是到这种时候,就越容易出错。我清晰的记得当时要紧急跑出当天的数据以便满足考核上报的要求,有位半新手的同事(其他同事去忙着恢复其他的表去了)直接针对一张海量的数据表进行了del操作,导致数据库直接回滚,所有人的工作都被迫停止,只能傻傻的等着回滚结束......。对于运营商来讲,最大的产品就是资费套餐,每次新推出资费套餐的时候,市场部门都会做严谨的资费预言测试,看看新推出套餐后对于收入、业务量的影响,这种取数一向以复杂、综合难度高著称,因为会涉及各类表的关联交叉分析,包括账单,话单及订购等等,而且市场营销人员对于数据的敏感性是非常高的,你取出来的结果跟他们的直接判断如果有较大的差异,就会要求反复核实,很多时候的确是沟通或取数中出现了问题。笔者记得当时的主管派我去谈一个资费测算取数,对我来说,这是一次旅程碑式的取数,因为自己是第一次面对市场部的主管和品牌经理,面对几十张测算表格,每个表格人家都会问基于这个口径能不能取,要多长时间才能完成诸如此类,笔者还是顶住了。笔者有很多年的取数生涯,现在则有机会带着一只年轻的数据团队去做更多的事情,而疫情期间的数据支撑,则算是一次取数的大考,牛鬼蛇神,大家都拉出来溜溜。而这期间发生的事情,则让我重新反思取数的价值,特别是关于取数人才的看法,这也是我写这篇文章的原因。“第一,加强统筹协调,组建疫情防控大数据分析支撑团队。成立超过300人的集团、省公司联合保障团队,严格7*24 小时大数据分析应急值守。第二,夯实技术基础,强化智慧敏捷响应。运营全网集中化大数据平台,实现对全网信令数据的统一采集、分析处理,确保大数据分析安全、及时、准确、可靠;打造智慧中台,截至目前敏捷响应各级政府部门400 余次数据分析需求....."中国移动副总经理简勤这么介绍。自己有幸参与其中,在《面对疫情,理性的思考,我的生活和工作更要继续!》一文中也曾经讲过自己团队的支撑情况:“累计投入超XXX人天,多位同事连续多日通宵奋战,多位骨干人均每日支持时长超18小时,有效保障了业务连续不中断,疫情数据及时交付......” 这也是中国移动各省公司所有大数据团队的一个缩影。但要把数据支撑工作做好其实很不容易,因为在关键时候,需求往往是模糊的,但对数据的及时性、准确性要求又特别高。它会打破一切的所谓的规矩,比如为了保障数据质量制定的机制和流程,每个取数者要面对的就是白刃战,为最终数据的准确性负责。“必需在20点交付、必需在22点交付、必需在2:00交付,必需在4:00交付......",这些命令对于一个管理者来说是很慌的,你现在唯一能依靠的就是你的团队和成员,只有他们才能对抗不确定性。而团队中的取数大师就像一把玄铁剑,最关键时刻总是能够一锤定音,准确的理解业务意图,朴实的把数据准确的取出来,帮你渡过难关,这是笔者在这次“数据会战”中很大的感受。在大数据创新如火如荼的今天,现在一提到大数据首先想到的大概是数据分析师、算法工程师、研发工程师、产品经理这些有光环的岗位,伴随这些岗位的都是是金字塔式的PPT、高大上的算法、牛逼的计算引擎、炫酷的产品、宏大的数据工程等等。那些只会取数的数据从业者似乎都要被遗忘了,甚至笔者这么一个取数出生的管理者,做了大数据以后也开始会想:取数成就不了一个职业,取10000个数还不如写个数据分析报告有用。沧海横流,方显英雄本色,每一个管理者都会在困境中重新领悟这句话的真谛,到底谁是数据团队的中流砥柱?术业有专攻,笔者并不觉得其他岗位有什么问题,而是觉得在大数据创新的过程中,我们对于取数这种基础工作可能有了些忽视,倾向于做看得到的东西,而忽视了看不到的东西,在资源有限的情况下,这种问题会变得越发明显,长期以往则会动摇数据团队的根基。因为取数(报表也是取数的一种)是企业运营的一个基础,为了维持企业正常运转,再小的企业也需要做出四张报表:利润表、资产负债表、现金流量表及所有者权益变动表。如果企业要做营销,还必须通过取数来做营销分析、监控和评估,诸如此类太多了。我们也许可以不需要BI、数据分析、数据产品甚至数据平台,这些都是从1到N,而取数决定了能否从0到1。即使再从1到N的过程中,取数也是所有BI、数据分析、数据产品乃至数据平台的基础。这个基本面决定了大多数的数据从业者实际都在从事取数的相关工作。当然是千方百计来确保数据准确性(一致性、及时性等等都算是),因为数据只有准确才能反映现实,才能满足洞察、决策、营销、风控等等的需要,否则就失去了意义。平台、机制和流程固然重要,但应该由谁来制定这些机制和流程?谁来执行这些机制和流程?在机制流程无法适应的情况下谁来应对取数的不确定性?企业有报表不假,但面对变化的市场,更需要的是定制化的取数,而要提高这些取数的质量,则需要有人能够真正理解业务的意图并把这些数据准确的提取出来。取数大师,则能够攻坚克难,在关键时刻发挥出巨大价值。比如在上下游数据、省市数据、业财数据不一致的时候来解决问题,比如在疫情保障、机器宕机时刻能够沉着的写出脚本快速出数。如果一个团队的取数能力强,数据质量其实不会是很大问题,很多时候鸡同鸭讲说不清楚,往往是因为大家都是半桶水而已。我们建了那么多的数据质量管理机制和流程,有时候不如安排一个取数大师来的那么有效,取数大师最能适应不确定性。机器也许能帮你自动完成80%,但剩下的关键的20%还得靠人。因为取数现在成为了企业运营的基础设施,就像水、电、煤一样普及,平时看不见就是最大的业绩。取数者每天做的都是承上启下的工作,技术领导面上看到的是技术突破或者系统上线,业务领导看到的则是业务量和收入,而取数人员的交付物既不是技术,也不是业务,而是中间的一堆数据,中间数据没法对外发出自己的声音。笔者现在的观点是:简单的取数无法成就一门职业,但取数大师可以。一件事情再不起眼,只要需求在哪里,你做到极致就有稀缺性,取数大师满足这两个条件,因此可以成就一门职业。以前笔者不太认可一直反复的做取数,是因为大多数人对于取数这个工种认知低了,做了2年就以为到了天花板。但由于取数的行业特性明显,因此光会取数的取数大师对外的竞争力不强,因为取数对于纯技能要求不高,它的稀缺性是针对所在的行业和企业说的,离开了这个背景,取数大师积累的系统、数据、人脉、业务优势就大打折扣了。即使你没有意愿成为取数大师,但作为数据从业者,也应该去了解取数,通过取数去培养数据的敏感性,这对于你从事其他数据类的岗位是有很大帮助的。有句话说得好:没有经历过取数的数据从业者,不是完整的数据人生。取数技能可以分解成业务理解、数据理解、系统理解、业务与数据映射、人际沟通、代码编写、工具使用、输入输出等组成部分,只有针对每个环节进行反复的练习及有效分析,针对不足之处进行专项提升,才能建立起强大的心理表征能力。接到一个取数需求,新人看到的是一堆文字描述,取数大师看到的是从业务术语表达出来的业务种类,每个业务种类对应的数据类别体系,每个数据类别体系能支撑的指标体系,不仅如此,大师还能一下看出这个需求有哪个点是某个数据类别体系不能单独支撑的,必须基于数据类别的交叉关联才能支撑,甚至更深一层,这个需求不是由当前的数据类别体系支撑的,必须映射到源系统的数据类别,层层深入。在几秒中之内,取数大师就能判别这个需求能否支撑,有哪个点是存在歧义的,需要业务人员进一步澄清的,这个需求的支撑的难度如何,大概要花多少时间等等,取数大师甚至能够猜到业务人员的真实意图是什么,从而可以为业务人员提出更好的取数建议。胸有成竹这句成语就是强大心理表征能力的体现,提高水平与改进心理表征是相辅相成的,两者不可偏废,随着水平的提升,表征也变得更加详尽和有效,反过来使得人们可能实现更大程度的改进。取数大师实际就是数据领域的工匠,其专注于某一行业、针对这一行业的数据加工过程全身心投入,精益求精、一丝不苟的完成整个工序的每一个环节。
管理者只有沉下心来,深刻反思很多数据问题所以发生的本质,才能清晰理解取数大师的真正价值,才能有意识的去培养取数人才,从而把数据的基础工作做的更扎实一点,也才能让上游的各类其它角色过得更舒服一点。
作者:傅一平 (微信号:frank61822702)
业务为王,这两年我们采用的那些数据产品和技术引擎
面对疫情,理性的思考,我的生活和工作更要继续!
春节荐书 | 2019年我读过的十本好书
在阿里做了五年技术主管,我有话想说
不做中台当然会死!
如何才能成为顶级的数据分析师?
数据中台应该包含什么?
大数据架构如何做到流批一体?
数据挖掘失败的根源
“做好大数据测试,我是认真的!”
美团点评基于 Flink 的实时数仓平台实践
大数据的过去、现在和未来:万字长文解读《大数据四十二条》
阿里巴巴高级算法专家威视:组建技术团队的一些思考
2019年,我的大数据白皮书
中台的末路
数据挖掘的军规
好好学习,好好思考(2019年第一期)
浙江移动数据中台的建设和应用实践
工作六年,我总结了一份数据产品建设指南
五级数据挖掘工程师,你处在哪一级?
不做中台会死吗?
BI(商业智能)的未来?
数据分析的道与术
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
超越BI,数据产品的前途在哪里?
要看更多,请点击左下角阅读原文即可阅读整理好的所有文章!